查看原文
其他

资源宝库|一篇文章教你建立自己的语料库

张一孟 翻译圈
2024-09-09



无论是在平常的翻译练习还是在学术研究中,语料库作为学习工具或是研究方法都不可或缺。那么,在做基于语料库方法的研究时应该如何建立自己的语料库呢?看完这篇,一定能对你有所启发!

语料库是什么


语料库一词译自英文“corpus(复数常用corpora)。

语料库语言学家辛克莱将其定义为“按照一定的采样标准采集而来的、能够代表一种语言或某语言的一种变体或文类的电子文本”。

 如何建立语料库1.
语料收集整理

语料通常都会以txt格式保存。

如果是书面语料,需要先扫描将其转成电子版,然后通过OCR识别,再自行校对和格式转换;

如果是语音语料,则需要首先进行转写,再进行后续步骤;

而如果已经是电子语料(如pdf,mobi,html等)则直接进行格式转换即可。


OCR识别工具推荐:ABBYYFineReader2,天若文字识别,Adobe Acrobat Pro DC等。

格式转换工具推荐:Adobe Acrobat Pro DC,或网站Aconvert,iLovePDF,Convertio等。

 


2.
 语料清洗

接下来就是语料的预处理,对语料进行校对降噪。

在这个过程中,我们需要把整理好的文本中多余的空格、空行、回车、乱码、错别字、以及其他不需要的信息(包括附录,表格,前言等)都去除掉。


推荐工具:MS Word和EmEditor(网址https://www.emeditor.com/)


P.S.在语料清洗的过程中,正则表达式是一个好帮手,在一些语料清洗工具中也提供了快捷键,不需要手动输入正则表达式,且能满足不少读者的需要。小编在这里附上示例表:


感兴趣的小伙伴可以在网址https://www.runoob.com/regexp/regexp-tutorial.html进行了解和学习~

3.
分词标注

首先请大家了解一下:

分词(tokenization)是指将一串字符转换成可以分析,容易识别的形符(token)——也就是词语——的过程;

标注(annotation)是指将文本中的词语按照各种属性(part of speech)进行标注;


但是请注意,对于汉语来说,分词是必须的,因为汉语的词语之间没有明显分隔,不进行分词的话难以识别分析;而标注不是必需步骤,在有需要时进行即可。


举个例子:

分词前

分词后

标注后



分词标注工具推荐:TreeTagger,CorpuswordParser(汉语),StanfordParser(英汉)等

以上工具都可以在http://corpus.bfsu.edu.cn/TOOLS.htm进行下载

4.
平行对齐

截止以上前三步,语料的加工基本已经完成,但如果你的语料是双语或多语,则需要对其进行对齐处理。

对齐是指将多语言语料实现句子的一一对应,也可以实现段落的一一对应,以形成规范的语对。


对齐推荐工具:memoQ,Tmxmall等


对齐完成后如图:

此图出自于上海外国语大学语料库研究院的《习近平谈治国理政》多语数据库综合平台

完成以上步骤就完成了对语料的处理和加工,成功建立了语料库!


 一些推荐


语料库建成后,小编在这里推荐两个常用的语料库检索分析工具:Antconc和Wordsmith。这两个软件可以帮助大家更好地对语料进行检索,生成词表等,是语料库人不离手的好工具!

此外,除了自建语料库,大家也要利用好现有的语料库,如:

英国国家语料库(British National Corpus,简称BNC)

http://www.natcorp.ox.ac.uk/

美国当代英语语料库(Corpus of Contemporary American English,简称COCA)

https://www.english-corpora.org/ 

SketchEngine

https://www.sketchengine.co.uk/ 

… …

以上就是本期全部内容啦,希望这篇文章可以在你探索语料库建立的途中提供一些帮助~

实践出真知,快去动手试试吧~

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:张一孟

推文编辑:张子明
指导老师:董妙子

核:吕欣潼、吴志雄

项目统筹:吕欣潼

资讯推荐


AIGC时代的翻译技术 沙龙

▶精品课程

精品课程|倒计时5天!实习证明、翻译项目,尽在四周暑期口笔译实习实践竞赛营!

精品课程|ChatGPT提示工程(Prompt Eng.)实践工作坊

精品课程|2023年暑期翻译技术实战研修班重磅来袭

精品课程|ChatGPT辅助翻译质量评估沙龙

精品课程|2023年暑期翻译技术实战研修班

精品课程|ChatGPT时代语料库与术语库建设与应用工作坊

▶翻译百科

翻译百科|《中国大百科全书》中的“统计机器翻译”

翻译百科|《中国大百科全书》中的“翻译规范”

翻译百科|《中国大百科全书》中的“翻译思维”

翻译百科|《中国大百科全书》中的“翻译对等”

翻译百科|《中国大百科全书》中的“翻译隐化”

翻译百科|《中国大百科全书》中的“翻译语料库”

翻译百科|《中国大百科全书》中的“翻译简化”

翻译百科|《中国大百科全书》中的“翻译伦理”

翻译百科|《中国大百科全书》中的“翻译机构”

翻译百科|《中国大百科全书》中的“翻译服务”

翻译百科|《中国大百科全书》中的“基于规则的机器翻译”

翻译百科|《中国大百科全书》中的“语料库翻译学”

翻译百科|《中国大百科全书》中的“翻译技术”

翻译百科|《中国大百科全书》中的“机器翻译”

翻译百科|《中国大百科全书》中的“基于实例的机器翻译”

翻译百科|《中国大百科全书》中的“翻译共性”

翻译百科|《中国大百科全书》中的“机器翻译译后编辑”

翻译百科|《中国大百科全书》中的“翻译记忆”

▶译界动态

译界动态|AIGC时代翻译教育创新与发展论坛2号通知(含直播通道)

译界动态|从书面到口头:AI口译的挑战与可能性

译界动态|GPT应用场景下语言服务与医学模型技术论坛——暨第六期新译大讲堂

译界动态|今日开讲:“识变应变,数智赋能——人工智能背景下的翻译教育创新发展”系列讲座

译界动态|2023翻译技术研究前沿高层论坛圆满举办

译界动态|2023年人工智能的一些顶级趋势

译界动态|王华树 刘世界:数字人文视域下译者数字素养研究:内涵、问题与建议

 关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存